home *** CD-ROM | disk | FTP | other *** search
/ Usenet 1993 July / InfoMagic USENET CD-ROM July 1993.ISO / answers / comp-speech-faq < prev    next >
Encoding:
Internet Message Format  |  1993-06-08  |  71.9 KB

  1. Path: senator-bedfellow.mit.edu!enterpoop.mit.edu!pad-thai.aktis.com!pad-thai.aktis.com!not-for-mail
  2. From: andrewh@ee.su.oz.au (Andrew Hunt)
  3. Newsgroups: comp.speech,comp.answers,news.answers
  4. Subject: comp.speech FAQ (Frequently Asked Questions)
  5. Supersedes: <comp-speech-faq_737092805@GZA.COM>
  6. Followup-To: comp.speech
  7. Date: 8 Jun 1993 00:00:19 -0400
  8. Organization: Speech Technology Group, The University of Sydney
  9. Lines: 1758
  10. Sender: faqserv@GZA.COM
  11. Approved: news-answers-request@MIT.Edu
  12. Expires: 20 Jul 1993 04:00:07 GMT
  13. Message-ID: <comp-speech-faq_739512007@GZA.COM>
  14. Reply-To: andrewh@ee.su.oz.au (Andrew Hunt)
  15. NNTP-Posting-Host: pad-thai.aktis.com
  16. Summary: Useful information about Speech Technology
  17. X-Last-Updated: 1993/06/02
  18. Xref: senator-bedfellow.mit.edu comp.speech:881 comp.answers:896 news.answers:9155
  19.  
  20. Archive-name: comp-speech-faq
  21. Last-modified: 1993/06/02
  22.  
  23.  
  24.                        comp.speech
  25.  
  26.                 Frequently Asked Questions
  27.                 ==========================
  28.  
  29. This document is an attempt to answer commonly asked questions and to
  30. reduce the bandwidth taken up by these posts and their associated replies.
  31. If you have a question, please check this file before you post.
  32.  
  33. The FAQ is not meant to discuss any topic exhaustively.  It will hopefully
  34. provide readers with pointers on where to find useful information.  It also
  35. tries to list useful material available elsewhere on the net.
  36.  
  37.  
  38. This FAQ is posted monthly to comp.speech, comp.answers and news.answers.
  39.  
  40. It is also available for anonymous ftp from the comp.speech archive site
  41.     svr-ftp.eng.cam.ac.uk:/comp.speech/FAQ
  42.  
  43.  
  44. If you have not already read the Usenet introductory material posted to 
  45. "news.announce.newusers", please do.  For help with FTP (file transfer
  46. protocol) look for a regular posting of "Anonymous FTP List - FAQ" in
  47. comp.misc, comp.archives.admin and news.answers amongst others.
  48.  
  49.  
  50. Admin
  51. -----
  52.  
  53. There are still some unanswered questions in this posting, and some
  54. answers are not particularly comprehensive.  If you have any comments, 
  55. suggestions for inclusions, or answers then please post them or email.
  56. (A section on Speaker Recognition/Verification would be good).
  57.  
  58. This month there is information on two more speech analysis environments.
  59. Thanks to the people who contributed this information.
  60.  
  61.  
  62. Andrew Hunt
  63. Speech Technology Research Group    email: andrewh@ee.su.oz.au
  64. Department of Electrical Engineering    Ph:  61-2-692 4509
  65. University of Sydney, NSW, Australia.    Fax: 61-2-692 3847
  66.  
  67.  
  68. ========================== Acknowledgements ===========================
  69.  
  70. Thanks to the following for their significant comments and contributions.
  71.  
  72. Barry Arons        <barons@media-lab.mit.edu>
  73. Joe Campbell        <jpcampb@afterlife.ncsc.mil>
  74. Oliver Jakobs        <jakobs@ldv01.Uni-Trier.de>
  75. Sonja Kowalewski    <kowa@uniko.uni-koblenz.de>
  76. Tony Robinson        <ajr@eng.cam.ac.uk>
  77. Mike S[?]        <mike%jim.uucp@wupost.wustl.edu>
  78.  
  79. Many others have provided useful information.  Thanks to all.
  80.  
  81.  
  82. ============================ Contents =================================
  83.  
  84. PART 1 - General
  85.  
  86. Q1.1: What is comp.speech?
  87. Q1.2: Where are the comp.speech archives?
  88. Q1.3: Common abbreviations and jargon.
  89. Q1.4: What are related newsgroups and mailing lists?
  90. Q1.5: What are related journals and conferences?
  91. Q1.6: What speech data is available?
  92. Q1.7: Speech File Formats, Conversion and Playing.
  93. Q1.8: What "Speech Laboratory Environments" are available?
  94.  
  95. PART 2 - Signal Processing for Speech
  96.  
  97. Q2.1: What speech sampling and signal processing hardware can I use?
  98. Q2.2: What signal processing techniques are for speech technology?
  99. Q2.3: How do I find the pitch of a speech signal?
  100. Q2.4: How do I convert to/from mu-law format?
  101.  
  102. PART 3 - Speech Coding and Compression
  103.  
  104. Q3.1: Speech compression techniques.
  105. Q3.2: What are some good references/books on coding/compression?
  106. Q3.3: What software is available?
  107.  
  108. PART 4 - Speech Synthesis
  109.  
  110. Q4.1: What is speech synthesis?
  111. Q4.2: How can speech synthesis be performed?
  112. Q4.3: What are some good references/books on synthesis?
  113. Q4.4: What software/hardware is available?
  114.  
  115. PART 5 - Speech Recognition
  116.  
  117. Q5.1: What is speech recognition?
  118. Q5.2: How can I build a very simple speech recogniser?
  119. Q5.2: What does speaker dependent/adaptive/independent mean?
  120. Q5.3: What does small/medium/large/very-large vocabulary mean?
  121. Q5.4: What does continuous speech or isolated-word mean?
  122. Q5.5: How is speech recognition done?
  123. Q5.6: What are some good references/books on recognition?
  124. Q5.7: What speech recognition packages are available?
  125.  
  126. PART 6 - Natural Language Processing
  127.  
  128. Q6.1: What are some good references/books on NLP?
  129. Q6.2: What NLP software is available?
  130.  
  131. =======================================================================
  132.  
  133. PART 1 - General
  134.  
  135. Q1.1: What is comp.speech?
  136.  
  137. comp.speech is a newsgroup for discussion of speech technology and 
  138. speech science.  It covers a wide range of issues from application of 
  139. speech technology, to research, to products and lots more.  By nature 
  140. speech technology is an inter-disciplinary field and the newsgroup reflects 
  141. this.  However, computer application is the basic theme of the group.
  142.  
  143. The following is a list of topics but does not cover all matters related 
  144. to the field - no order of importance is implied.
  145.  
  146. [1] Speech Recognition - discussion of methodologies, training, techniques, 
  147. results and applications.  This should cover the application of techniques 
  148. including HMMs, neural-nets and so on to the field.
  149.  
  150. [2] Speech Synthesis - discussion concerning theoretical and practical
  151. issues associated with the design of speech synthesis systems.
  152.  
  153. [3] Speech Coding and Compression - both research and application matters.
  154.  
  155. [4] Phonetic/Linguistic Issues - coverage of linguistic and phonetic issues 
  156. which are relevant to speech technology applications.  Could cover parsing, 
  157. natural language processing, phonology and prosodic work.
  158.  
  159. [5] Speech System Design - issues relating to the application of speech
  160. technology to real-world problems.  Includes the design of user interfaces, 
  161. the building of real-time systems and so on.
  162.  
  163. [6] Other matters - relevant conferences, books, public domain software, 
  164. hardware and related products.
  165.  
  166. ------------------------------------------------------------------------
  167.  
  168. Q1.2: Where are the comp.speech archives?
  169.  
  170. comp.speech is being archived for anonymous ftp.
  171.  
  172.     ftp site:    svr-ftp.eng.cam.ac.uk (or 129.169.24.20).  
  173.     directory:    comp.speech/archive
  174.  
  175. comp.speech/archive contains the articles as they arrive.  Batches of 100
  176. articles are grouped into a shar file, along with an associated file of
  177. Subject lines.
  178.  
  179. Other useful information is also available in comp.speech/info.
  180.  
  181. ------------------------------------------------------------------------
  182.  
  183. Q1.3: Common abbreviations and jargon.
  184.  
  185. ANN   - Artificial Neural Network.
  186. ASR   - Automatic Speech Recognition.
  187. ASSP  - Acoustics Speech and Signal Processing
  188. AVIOS - American Voice I/O Society
  189. CELP  - Code-book excited linear prediction.
  190. COLING - Computational Linguistics
  191. DTW   - Dynamic time warping.
  192. FAQ   - Frequently asked questions.
  193. HMM   - Hidden markov model.
  194. IEEE  - Institute of Electrical and Electronics Engineers
  195. JASA  - Journal of the Acoustic Society of America
  196. LPC   - Linear predictive coding.
  197. LVQ   - Learned vector quantisation.
  198. NLP   - Natural Language Processing.
  199. NN    - Neural Network.
  200. TTS   - Text-To-Speech (i.e. synthesis).
  201. VQ    - Vector Quantisation.
  202.  
  203. ------------------------------------------------------------------------
  204.  
  205. Q1.4: What are related newsgroups and mailing lists?
  206.  
  207.  
  208. NEWGROUPS
  209.  
  210. comp.ai - Artificial Intelligence newsgroup.  
  211.      Postings on general AI issues, language processing and AI techniques.
  212.      Has a good FAQ including NLP, NN and other AI information.
  213.  
  214. comp.ai.nat-lang - Natural Language Processing Group
  215.      Postings regarding Natural Language Processing.  Set up to cover
  216.      a broard range of related issues and different viewpoints.
  217.  
  218. comp.ai.nlang-know-rep - Natural Language Knowledge Representation
  219.      Moderated group covering Natural Language.
  220.  
  221. comp.ai.neural-nets - discussion of Neural Networks and related issues.  
  222.      There are often posting on speech related matters - phonetic recognition,
  223.      connectionist grammars and so on.
  224.  
  225. comp.compression - occasional articles on compression of speech.
  226.      FAQ for comp.compression has some info on audio compression standards.
  227.  
  228. comp.dcom.telecom - Telecommunications newsgroup.
  229.      Has occasional articles on voice products.
  230.  
  231. comp.dsp - discussion of signal processing - hardware and algorithms and more.
  232.      Has a good FAQ posting.
  233.      Has a regular posting of a comprehensive list of Audio File Formats.
  234.  
  235. comp.multimedia - Multi-Media discussion group.
  236.      Has occasional articles on voice I/O.
  237.  
  238. sci.lang - Language.  
  239.      Discussion about phonetics, phonology, grammar, etymology and lots more.
  240.  
  241. alt.sci.physics.acoustics - some discussion of speech production & perception.
  242.  
  243. alt.binaries.sounds.misc - posting of various sound samples
  244. alt.binaries.sounds.d - discussion about sound samples, recording and playback.
  245.  
  246.  
  247. MAILING LISTS
  248.  
  249. ECTL - Electronic Communal Temporal Lobe
  250.      Founder & Moderator: David Leip
  251.      Moderated mailing list for researchers with interests in computer speech 
  252.      interfaces. This list serves a broad community including persons from 
  253.      signal processing, AI, linguistics and human factors.
  254.      
  255.      To subscribe, send the following information to: 
  256.         ectl-request@snowhite.cis.uoguelph.ca
  257.         name, institute, department, daytime phone & e-mail address
  258.  
  259.      To access the archive, ftp snowhite.cis.uoguelph.ca, login as anonymous,
  260.      and supply your local userid as a password.  All the ECTL things can be
  261.      found in pub/ectl.
  262.  
  263. Prosody Mailing List
  264.     Unmoderated mailing list for discussion of prosody.  The aim is
  265.     to facilitate the spread of information relating to the research
  266.     of prosody by creating a network of researchers in the field.
  267.     If you want to participate, send the following one-line
  268.     message to "listserv@purccvm.bitnet" :-
  269.  
  270.         subscribe prosody Your Name
  271.  
  272. foNETiks
  273.     A monthly newsletter distributed by e-mail. It carries job 
  274.     advertisements, notices of conferences, and other news of
  275.     general interest to phoneticians, speech scientists and others 
  276.     The current editors are Linda Shockey and Gerry Docherty.
  277.     To subscribe, send a message to FONETIKS-REQUEST@dev.rdg.ac.uk.
  278.  
  279. Digital Mobile Radio
  280.      Covers lots of areas include some speech topics including speech 
  281.      coding and speech compression.
  282.      Mail Peter Decker (dec@dfv.rwth-aachen.de) to subscribe.
  283.  
  284. ------------------------------------------------------------------------
  285.  
  286. Q1.5: What are related journals and conferences?
  287.  
  288. Try the following commercially oriented magazines...
  289.  
  290.     Speech Technology - no longer published
  291.  
  292. Try the following technical journals...
  293.  
  294.     IEEE Transactions on Speech and Audio Processing (from Jan 93)
  295.     Computational Linguistics (COLING)
  296.     Computer Speech and Language
  297.     Journal of the Acoustical Society of America (JASA)
  298.     Transactions of IEEE ASSP
  299.     AVIOS Journal
  300.  
  301. Try the following conferences...
  302.  
  303.  ICASSP        Intl. Conference on Acoustics Speech and Signal Processing (IEEE)
  304.  ICSLP        Intl. Conference on Spoken Language Processing
  305.  EUROSPEECH European Conference on Speech Communication and Technology
  306.  AVIOS      American Voice I/O Society Conference
  307.  SST        Australian Speech Science and Technology Conference
  308.  
  309. ------------------------------------------------------------------------
  310.  
  311. Q1.6: What speech data is available?
  312.  
  313. A wide range of speech databases have been collected.  These databases 
  314. are primarily for the development of speech synthesis/recognition and for 
  315. linguistic research.  
  316.  
  317. Some databases are free but most appear to be available for a small cost.
  318. The databases normally require lots of storage space - do not expect to be 
  319. able to ftp all the data you want.
  320.  
  321. [There are too many to list here in detail - perhaps someone would like to 
  322.  set up a special posting on speech databases?]
  323.  
  324.  
  325.     PHONEMIC SAMPLES
  326.     ================
  327.  
  328. First, some basic data.  The following sites have samples of English phonemes
  329. (American accent I believe) in Sun audio format files.  See Question 1.7
  330. for information on audio file formats.
  331.  
  332.         sounds.sdsu.edu:/.1/phonemes
  333.         phloem.uoregon.edu:/pub/Sun4/lib/phonemes
  334.         sunsite.unc.edu:/pub/multimedia/sun-sounds/phonemes
  335.  
  336.  
  337.     HOMOPHONE LIST
  338.     ==============
  339.  
  340. A list of homophones in General American English is available by anonymous 
  341. FTP from the comp.speech archive site:
  342.  
  343.   machine name: svr-ftp.eng.cam.ac.uk
  344.   directory:    comp.speech/data
  345.   file name:    homophones-1.01.txt
  346.  
  347.  
  348.     LINGUISTIC DATA CONSORTIUM (LDC)
  349.     ================================
  350.  
  351. Information about the Linguistic Data Consortium is available via
  352. anonymous ftp from:    ftp.cis.upenn.edu    (130.91.6.8)
  353. in the directory:    /pub/ldc
  354.  
  355. Here are some excerpts from the files in that directory:
  356.  
  357. Briefly stated, the LDC has been established to broaden the collection
  358. and distribution of speech and natural language data bases for the
  359. purposes of research and technology development in automatic speech
  360. recognition, natural language processing and other areas where large
  361. amounts of linguistic data are needed.
  362.  
  363. Here is the brief list of corpora:
  364.  
  365.    * The TIMIT and NTIMIT speech corpora
  366.    * The Resource Management speech corpus (RM1, RM2)
  367.    * The Air Travel Information System (ATIS0) speech corpus
  368.    * The Association for Computational Linguistics - Data Collection 
  369.      Initiative text corpus (ACL-DCI)
  370.    * The TI Connected Digits speech corpus (TIDIGITS)
  371.    * The TI 46-word Isolated Word speech corpus (TI-46)
  372.    * The Road Rally conversational speech corpora (including "Stonehenge" 
  373.      and "Waterloo" corpora)
  374.    * The Tipster Information Retrieval Test Collection
  375.    * The Switchboard speech corpus ("Credit Card" excerpts and portions
  376.      of the complete Switchboard collection)
  377.  
  378. Further resources to be made available within the first year (or two):
  379.  
  380.    * The Machine-Readable Spoken English speech corpus (MARSEC)
  381.    * The Edinburgh Map Task speech corpus
  382.    * The Message Understanding Conference (MUC) text corpus of FBI 
  383.      terrorist reports
  384.    * The Continuous Speech Recognition - Wall Street Journal speech 
  385.      corpus (WSJ-CSR)
  386.    * The Penn Treebank parsed/tagged text corpus
  387.    * The Multi-site ATIS speech corpus (ATIS2)
  388.    * The Air Traffic Control (ATC) speech corpus
  389.    * The Hansard English/French parallel text corpus
  390.    * The European Corpus Initiative multi-language text corpus (ECI) 
  391.    * The Int'l Labor Organization/Int'l Trade Union multi-language 
  392.      text corpus (ILO/ITU)
  393.    * Machine-readable dictionaries/lexical data bases (COMLEX, CELEX)
  394.  
  395. The files in the directory include more detailed information on the 
  396. individual databases.  For further information contact
  397.  
  398.     Elizabeth Hodas
  399.     441 Williams Hall
  400.     University of Pennsylvania
  401.     Philadelphia, PA 19104-6305
  402.     Phone:   (215) 898-0464
  403.     Fax:     (215) 573-2175
  404.     e-mail:  ehodas@walnut.ling.upenn.edu
  405.  
  406.  
  407.     Center for Spoken Language Understanding (CSLU)
  408.     ===============================================
  409.  
  410. 1. The ISOLET speech database of spoken letters of the English alphabet. 
  411. The speech is high quality (16 kHz with a noise cancelling microphone).  
  412. 150 speakers x 26 letters of the English alphabet twice in random order.  
  413. The "ISOLET" data base can be purchased for $100 by sending an email request 
  414. to vincew@cse.ogi.edu.  (This covers handling, shipping and medium costs).  
  415. The data base comes with a technical report describing the data.
  416.  
  417. 2. CSLU has a telephone speech corpus of 1000 English alphabets.  Callers 
  418. recite the alphabet with brief pauses between letters.  This database is 
  419. available to not-for-profit institutions for $100. The data base is described 
  420. in the proceedings of the International Conference on Spoken Language 
  421. Processing.  Contact vincew@cse.ogi.edu if interested.
  422.  
  423.  
  424.        PhonDat - A Large Database of Spoken German
  425.        ===========================================
  426.  
  427. The PhonDat continuous speech corpora are now available on
  428. CD-ROM media (ISO 9660 format).
  429.  
  430.     PhonDat I  (Diphone Corpus)        : 6 CDs    (1140.- DM)
  431.     PhonDat II (Train Enquiries Corpus): 1 CD     ( 190.- DM)
  432.  
  433. PhonDat I comprises approx. 20.000, PhonDat II approx. 1500 
  434. files signal files in high quality 16-bit 16 KHz recording.
  435. The corpora come with a documentation containing the orthographic 
  436. transcription and a citation form of the utterances, as well as a 
  437. detailed file format description.  A narrow phonetic transcription 
  438. is available for selected files from corpus I and II.
  439.  
  440. For information and orders contact
  441.  
  442.    Barbara Eisen
  443.    Institut fuer Phonetik
  444.    Schellingstr. 3 / II
  445.    D 8000 Munich 40
  446.  
  447.    Tel: +49 / 89 / 2180 -2454 or -2758
  448.    Fax: +49 / 89 / 280 03 62
  449.  
  450. ------------------------------------------------------------------------
  451.  
  452. Q1.7: Speech File Formats, Conversion and Playing.
  453.  
  454. Section 2 of this FAQ has information on mu-law coding.
  455.  
  456. A very good and very comprehensive list of audio file formats is prepared
  457. by Guido van Rossum.  The list is posted regularly to comp.dsp and
  458. alt.binaries.sounds.misc, amongst others.  It includes information on 
  459. sampling rates, hardware, compression techniques, file format definitions, 
  460. format conversion, standards, programming hints and lots more.  It is much
  461. too long to include within this posting.
  462.  
  463. It is also available by ftp 
  464.     from:         ftp.cwi.nl
  465.     directory:    /pub 
  466.     file:         AudioFormats<version>
  467.  
  468. ------------------------------------------------------------------------
  469.  
  470. Q1.8: What "Speech Laboratory Environments" are available?
  471.  
  472. First, what is a Speech Laboratory Environment?  A speech lab is a
  473. software package which provides the capability of recording, playing,
  474. analysing, processing, displaying and storing speech.  Your computer
  475. will require audio input/output capability.  The different packages
  476. vary greatly in features and capability - best to know what you want
  477. before you start looking around.
  478.  
  479. Most general purpose audio processing packages will be able to process speech
  480. but do not necessarily have some specialised capabilities for speech (e.g.
  481. formant analysis).
  482.  
  483. The following article provides a good survey.
  484.  
  485.   Read, C., Buder, E., & Kent, R. "Speech Analysis Systems: An Evaluation"
  486.   Journal of Speech and Hearing Research, pp 314-332, April 1992.
  487.  
  488.  
  489. Package: Entropic Signal Processing System (ESPS) and Waves
  490. Platform: Range of Unix platforms.
  491. Description: ESPS is a very comprehensive set of speech analysis/processing 
  492.     tools for the UNIX environment.  The package includes UNIX commands, 
  493.     and a comprehensive C library (which can be accessed from other 
  494.     languages).  Waves is a graphical front-end for speech processing.  
  495.     Speech waveforms, spectrograms, pitch traces etc can be displayed, 
  496.     edited and processed in X windows and Openwindows (versions 2 & 3).
  497.     The HTK (Hidden Markov Model Toolkit) is now available from Entropic.
  498.     HTK is described in some detail in Section 5 of this FAQ - the
  499.     section on Speech Recognition.
  500. Cost:   On request.
  501. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  502.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  503.     (202) 547-1420.  email - info@wrl.epi.com
  504.  
  505.  
  506. Package: CSRE: Canadian Speech Research Environment
  507. Platform: IBM/AT-compatibles
  508. Description: CSRE is a comprehensive, microcomputer-based system designed 
  509.     to support speech research.  CSRE provides a powerful, low-cost 
  510.     facility in support of speech research, using mass-produced and 
  511.     widely-available hardware. The project is non-profit, and relies 
  512.     on the cooperation of researchers at a number of institutions and
  513.     fees generated when the software is distributed.  Functions 
  514.     include speech capture, editing, and replay; several alternative 
  515.     spectral analysis procedures, with color and surface/3D displays; 
  516.     parameter extraction/tracking and tools to automate measurement 
  517.     and support data logging; alternative pitch-extraction systems; 
  518.     parametric speech (KLATT80) and non-speech acoustic synthesis, 
  519.     with a variety of supporting productivity tools; and a 
  520.     comprehensive experiment generator, to support behavioral testing 
  521.     using a variety of common testing protocols.
  522.     A paper about the whole package can be found in:
  523.        Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  524.        Proc. of the Second Intl. Conf. on Spoken Language Processing,
  525.        Edmonton: University of Alberta, pp. 1127-1130.
  526. Hardware:     Can use a range of data aqcuisition/DSP
  527. Cost:    Distributed on a cost recovery basis.
  528. Availability: For more information on availability
  529.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  530.     Tel (519) 661-3901  Fax (519) 661-3805.
  531.     For technical information  - email ramji@uwovax.uwo.ca
  532. Note: Also included in Q4.4 on speech synthesis packages.
  533.  
  534.  
  535. Package: Signalyze 2.0 from InfoSignal
  536. Platform: Macintosh
  537. Description: Signalyze's basic conception revolves around up to 100 
  538.     signals, displayed synchronously in HyperCard fashion on "cards".
  539.     The program offers a full complement of signal editing features, 
  540.     quite a few spectral analysis tools, manual scoring tools, pitch 
  541.     extraction routines, a good set of signal manipulation tools, and 
  542.     extensive input-output capacity.
  543.     Handles multiple file formats: Signalyze, MacSpeech Lab, AudioMedia, 
  544.     SoundDesigner II, SoundEdit/MacRecorder, SoundWave, three sound 
  545.     resource formats, and ASCII-text.
  546.     Sound I/O: Direct sound input from MacRecorder and similar devices, 
  547.     AudioMedia, AudioMedia II and AD IN, some MacADIOS boards and devices,
  548.     Apple sound input (built-in microphone). Sound output via Macintosh 
  549.     internal sound, some MacADIOS boards and devices as well as via the 
  550.     Digidesign 16-bit boards.
  551. Compatibility: MacPlus and higher (including II, IIx, IIcx, IIci, IIfx, 
  552.     IIvx, IIvi, Portable, all PowerBooks, Centris and Quadras). Takes 
  553.     advantage of large and multiple screens and 16/256 color/grayscales. 
  554.     System 7.0 compatible. Runs in background with adjustable priority.
  555. Misc: A demo available upon request.
  556.     Manuals and tutorial included.
  557.     It is available in English, French, and German.
  558. Cost: Individual licence US$350, site license US$500, plus shipping.
  559. Contact: North America - Network Technology Corporation
  560.         91 Baldwin St., Charlestown MA 02129
  561.         Fax: 617-241-5064   Phone: 617-241-9205
  562.     Elsewhere -  InfoSignal Inc.
  563.         C.P. 73, 1015 LAUSANNE, Switzerland, 
  564.         FAX: +41 21 691-1372,
  565.         Email: 76357.1213@COMPUSERVE.COM.
  566.  
  567.  
  568. Package: Kay Elemetrics CSL (Computer Speech Lab) 4300
  569. Platform: Minimum IBM PC-AT compatible with extended memory (min 2MB) 
  570.     with at least VGA graphics. Optimal would be 386 or 486 machine 
  571.     with more RAM for handling larger amounts of data.
  572. Description: Speech analysis package, with optional separate LPC program 
  573.     for analysis/synthesis. Uses its own file format for data, but has 
  574.     some ability to export data as ascii. The main editing/analysis prog 
  575.     (but not the LPC part) has its own macro language, making it easy to 
  576.     perform repetitive tasks.  Probably not much use without the extra 
  577.     LPC program, which also allows manipulation of pitch, formant and 
  578.     bandwidth parameters.
  579.     Hardware includes an internal DSP board for the PC (requires ISA 
  580.     slot), and an external module containing signal processing chips 
  581.     which does A/D and D/A conversion. 
  582.     A speaker and microphone are supplied.
  583. Misc:  A programmers kit is available for programming signal processing
  584.     chips (experts only).
  585.     Manuals included.
  586. Cost: Recently approx 6000 pounds sterling. (Less in USA?)
  587. Availibility: UK distributors are Wessex Electronics, 
  588.         114-116 North Street, Downend, Bristol, B16 5SE 
  589.         Tel: 0272 571404. 
  590.     In USA: Kay Elemetrics Corp, 
  591.         12 Maple Avenue, PO Box 2025, Pine Brook, NJ 07058-9798
  592.         Tel:(201) 227-7760
  593.  
  594.  
  595. Package: Ptolemy
  596. Platform: Sun SPARC, DecStation (MIPS), HP (hppa).
  597. Description: Ptolemy provides a highly flexible foundation for the 
  598.     specification, simulation, and rapid prototyping of systems.  
  599.     It is an object oriented framework within which diverse models 
  600.     of computation can co-exist and interact.  Ptolemy can be used 
  601.     to model entire systems.
  602.     Ptolemy has been used for a broad range of applications including
  603.     signal processing, telecomunications, parallel processing, wireless
  604.     communications, network design, radio astronomy, real time systems, 
  605.     and hardware/software co-design.  Ptolemy has also been used as a lab
  606.     for signal processing and communications courses.
  607.     Ptolemy has been developed at UC Berkeley over the past 3 years.
  608.     Further information, including papers and the complete release
  609.     notes, is available from the FTP site.
  610. Cost: Free
  611. Availability: The source code, binaries, and documentation are available 
  612.     by anonymous ftp from "ptolemy.bekeley.edu" - see the README file -
  613.         ptolemy.berkeley.edu:/pub/README
  614.  
  615.  
  616. Package: Khoros
  617. Description: Public domain image processing package with a basic DSP
  618.     library.  Not particularly applicable to speech, but not bad
  619.     for the price.
  620. Cost:    FREE
  621. Availability: By anonymous ftp from pprg.eece.unm.edu
  622.  
  623.  
  624. Can anyone provide information on capability and availability of the
  625. following packages?
  626.  
  627.     VIEW
  628.     ILS ("Interactive Laboratory System")
  629.     MacSpeech Lab (for Mac)
  630.     SpeechViewer (PC)
  631.  
  632.  
  633.  
  634. =======================================================================
  635.  
  636. PART 2 - Signal Processing for Speech
  637.  
  638. Q2.1: What speech sampling and signal processing hardware can I use?
  639.  
  640. In addition to the following information, have a look at the Audio File
  641. format document prepared by Guido van Rossum (see details in Section 1.7).
  642.  
  643.  
  644. Product: Sun standard audio port (SPARC 1 & 2)
  645. Input:  1 channel, 8 bit mu-law encoded (telephone quality)
  646. Output: 1 channel, 8 bit mu-law encoded (telephone quality)
  647.  
  648.  
  649. Product:  Ariel
  650. Platform: Sun + others?
  651. Input:  2 channels, 16bit linear, sample rate 8-96kHz (inc 32, 44.1, 48kHz).
  652. Output: 2 channels, 16bit linear, sample rate 8-50kHz (inc 32, 44.1, 48kHz).
  653. Contact: Ariel Corp.433 River Road,
  654.     Highland Park, NJ 08904.
  655.     Ph: 908-249-2900  Fax: 908-249-2123  DSP BBS: 908-249-2124
  656.  
  657.  
  658. Product:  IBM RS/6000 ACPA (Audio Capture and Playback Adapter)
  659. Description: The card supports PCM, Mu-Law, A-Law and ADPCM at 44.1kHz 
  660.     (& 22.05, 11.025, 8kHz) with 16-bits of resolution in stereo.  
  661.     The card has  a built-in DSP (don't know which one).  The device 
  662.     also supports various formats for the output data, like big-endian, 
  663.     twos complement, etc.  Good noise immunity.
  664.     The card is used for IBM's VoiceServer (they use the DSP for 
  665.     speech recognition).  Apparently, the IBM voiceserver has a 
  666.     speaker-independent vocabulary of over 20,000 words and each 
  667.     ACPA can support two independent sessions at once.
  668. Cost:    $US495
  669. Contact: ?
  670.  
  671. Product: Sound Galaxy NX , Aztech Systems
  672. Platform: PC - DOS,Windows 3.1
  673. Cost: ??
  674. Input: 8bit linear, 4-22 kHz.
  675. Output: 8bit linear, 4-44.1 kHz 
  676. Misc: 11-voice FM Music Synthesizer YM3812; Built-in power amplifier;
  677.     DSP signal processing support - ST70019SB
  678.     Hardware ADPCM decompression (2:1,3:1,4:1)
  679.     Full "AdLib" and "Sound Blaster" compatbility.
  680.     Software includes a  simple Text-to-Speech program "Monologue".
  681.  
  682.  
  683. Product: Sound Galaxy NX PRO, Aztech Systems
  684. Platform: PC - DOS,Windows 3.1
  685. Cost: ??
  686. Input: 2 * 8bit linear, 4-22.05 kHz(stereo), 4-44.1 KHz(mono).
  687. Output: 2 * 8bit linear, 4-44.1 kHz(stereo/mono)
  688. Misc: 20-voice FM Music Synthesizer; Built-in power amplifier;
  689.     Stereo Digital/Analog Mixer; Configuration in EEPROM.
  690.     Hardware  ADPCM decompression (2:1,3:1,4:1).
  691.     Includes DSP signal processing support
  692.     Full "AdLib" and "Sound Blaster Pro II" compatybility.
  693.     Software includes a simple Text-to-Speech program "Monologue"
  694.     and Sampling laboratory for Windows 3.1: WinDAT.
  695. Contact: USA (510)6238988
  696.  
  697.  
  698.                        Other PC Sound Cards 
  699. ============================================================================
  700. sound          stereo/mono              compatible     included   voices
  701. card           & sample rate            with           ports
  702. ============================================================================
  703. Adlib Gold     stereo: 8-bit 44.1khz    Adlib ?        audio      20 (opl3)
  704. 1000                  16-bit 44.1khz                   in/out,    +2 digital
  705.                mono: 8-bit 44.1khz                     mic in,    channels
  706.                     16-bit 44.1khz                     joystick,
  707.                                                        MIDI
  708.  
  709. Sound Blaster  mono: 8-bit 22.1khz      Adlib          audio       11 synth.
  710.                FM synth with                           in/out,
  711.                2 operators                             joystick,
  712.  
  713. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       22
  714. Pro Basic      mono: 8-bit 44.1khz      Sound Blaster  in/out,
  715.                                                        joystick,
  716.  
  717. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       11
  718. Pro            mono: 8-bit 44.1khz      Sound Blaster  in/out
  719.                                                        joystick,
  720.                                                        MIDI, SCSI
  721.  
  722. Sound Blaster  stereo: 8-bit 4-44.1khz  Sound Blaster  audio       20
  723. 16 ASP         stereo: 16-bit 4-44.1khz                in/out,
  724.                                                        joystick,
  725.                                                        MIDI
  726.  
  727. Audio Port     mono: 8-bit 22.05khz     Adlib          audio       11
  728.                                         Sound Blaster  in/out,
  729.                                                        joystick
  730.  
  731. Pro Audio      stereo: 8-bit 44.1khz    Adlib          audio,      20
  732. Spectrum +                              Pro Audio      in/out,
  733.                                         Spectrum       joystick
  734.  
  735.  
  736. Pro Audio      stereo: 16-bit 44.1khz   Adlib          audio       20
  737. Spectrum 16                             Pro Audio      in/out,
  738.                                         Spectrum       joystick,
  739.                                         Sound Blaster  MIDI, SCSI
  740.  
  741. Thunder Board  stereo: 8-bit 22khz      Adlib          audio       11
  742.                                         Sound Blaster  in/out,
  743.                                                        joystick
  744.  
  745. Gravis         stereo: 8-bit 44.1khz    Adlib,         audio line  32 sampled
  746. Ultrasound     mono: 8-bit 44.1khz      Sound Blaster  in/out,     32 synth.
  747.                                                        amplified
  748.                                                        out,
  749.                (w/16-bit daughtercard)                 mic in, CD
  750.                stereo: 16-bit 44.1khz                  audio in,
  751.                mono: 16-bit 44.1khz                    daughterboard
  752.                                                        ports (for
  753.                                                        SCSI and
  754.                                                        16-bit)
  755.  
  756. MultiSound     stereo: 16-bit 44.1kHz   Nothing        audio       32 sampled
  757.                64x oversampling                        in/out,
  758.                                                        joystick,
  759.                                                        MIDI
  760.  
  761. =============================================================================
  762.  
  763.  
  764. Can anyone provide information on Mac, NeXT and other hardware?
  765.  
  766. [Help is needed to source more info.  How about the following format?]
  767.  
  768. Product:  xxx
  769. Platform: PC, Mac, Sun, ...
  770. Rough Cost (pref $US):
  771. Input: e.g. 16bit linear, 8,10,16,32kHz.
  772. Output: e.g. 16bit linear, 8,10,16,32kHz.
  773. DSP: signal processing support
  774. Other:
  775. Contact:
  776.  
  777. ------------------------------------------------------------------------
  778.  
  779. Q2.2: What signal processing techniques are for speech technology?
  780.  
  781. This question is far to big to be answered in a FAQ posting.  Fortunately
  782. there are many good books which answer the question!
  783.  
  784. Some good introductory books include
  785.  
  786.    Digital processing of speech signals; L. R. Rabiner, R. W. Schafer.
  787.    Englewood Cliffs; London: Prentice-Hall, 1978
  788.  
  789.    Voice and Speech Processing; T. W. Parsons.
  790.    New York; McGraw Hill 1986
  791.  
  792.    Computer Speech Processing; ed Frank Fallside, William A. Woods
  793.    Englewood Cliffs: Prentice-Hall, c1985
  794.  
  795.    Digital speech processing : speech coding, synthesis, and recognition
  796.    edited by A. Nejat Ince; Kluwer Academic Publishers, Boston, c1992
  797.  
  798.    Speech science and technology; edited by Shuzo Saito
  799.    pub. Ohmsha, Tokyo, c1992
  800.  
  801.    Speech analysis; edited by Ronald W. Schafer, John D. Markel
  802.    New York, IEEE Press, c1979
  803.  
  804.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  805.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  806.    1987.
  807.  
  808. ------------------------------------------------------------------------
  809.  
  810. Q2.3: How do I find the pitch of a speech signal?
  811.  
  812. This topic comes up regularly in the comp.dsp newsgroup.  Question 2.5
  813. of the FAQ posting for comp.dsp gives a comprehensive list of references
  814. on the definition, perception and processing of pitch.
  815.  
  816. ------------------------------------------------------------------------
  817.  
  818. Q2.4: How do I convert to/from mu-law format?
  819.  
  820. Mu-law coding is a form of compression for audio signals including speech.
  821. It is widely used in the telecommunications field because it improves the
  822. signal-to-noise ratio without increasing the amount of data.  Typically,
  823. mu-law compressed speech is carried in 8-bit samples.  It is a companding
  824. technqiue.  That means that carries more information about the smaller signals
  825. than about larger signals.  Mu-law coding is provided as standard for the
  826. audio input and output of the SUN Sparc stations 1&2 (Sparc 10's are linear).
  827.  
  828.  
  829. On SUN Sparc systems have a look in the directory /usr/demo/SOUND.  Included
  830. are table lookup macros for ulaw conversions.  [Note however that not all
  831. systems will have /usr/demo/SOUND installed as it is optional - see your
  832. system admin if it is missing.]
  833.  
  834.  
  835. OR, here is some sample conversion code in C.
  836.  
  837. # include <stdio.h>
  838.  
  839. unsigned char linear2ulaw(/* int */);
  840. int ulaw2linear(/* unsigned char */);
  841.  
  842. /*
  843. ** This routine converts from linear to ulaw.
  844. **
  845. ** Craig Reese: IDA/Supercomputing Research Center
  846. ** Joe Campbell: Department of Defense
  847. ** 29 September 1989
  848. **
  849. ** References:
  850. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  851. ** 2) "A New Digital Technique for Implementation of Any
  852. **     Continuous PCM Companding Law," Villeret, Michel,
  853. **     et al. 1973 IEEE Int. Conf. on Communications, Vol 1,
  854. **     1973, pg. 11.12-11.17
  855. ** 3) MIL-STD-188-113,"Interoperability and Performance Standards
  856. **     for Analog-to_Digital Conversion Techniques,"
  857. **     17 February 1987
  858. **
  859. ** Input: Signed 16 bit linear sample
  860. ** Output: 8 bit ulaw sample
  861. */
  862.  
  863. #define ZEROTRAP    /* turn on the trap as per the MIL-STD */
  864. #undef ZEROTRAP
  865. #define BIAS 0x84   /* define the add-in bias for 16 bit samples */
  866. #define CLIP 32635
  867.  
  868. unsigned char linear2ulaw(sample) int sample; {
  869.   static int exp_lut[256] = {0,0,1,1,2,2,2,2,3,3,3,3,3,3,3,3,
  870.                              4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,
  871.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  872.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  873.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  874.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  875.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  876.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  877.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  878.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  879.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  880.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  881.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  882.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  883.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  884.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7};
  885.   int sign, exponent, mantissa;
  886.   unsigned char ulawbyte;
  887.  
  888.   /* Get the sample into sign-magnitude. */
  889.   sign = (sample >> 8) & 0x80;        /* set aside the sign */
  890.   if(sign != 0) sample = -sample;        /* get magnitude */
  891.   if(sample > CLIP) sample = CLIP;        /* clip the magnitude */
  892.  
  893.   /* Convert from 16 bit linear to ulaw. */
  894.   sample = sample + BIAS;
  895.   exponent = exp_lut[( sample >> 7 ) & 0xFF];
  896.   mantissa = (sample >> (exponent + 3)) & 0x0F;
  897.   ulawbyte = ~(sign | (exponent << 4) | mantissa);
  898. #ifdef ZEROTRAP
  899.   if (ulawbyte == 0) ulawbyte = 0x02;    /* optional CCITT trap */
  900. #endif
  901.  
  902.   return(ulawbyte);
  903. }
  904.  
  905. /*
  906. ** This routine converts from ulaw to 16 bit linear.
  907. **
  908. ** Craig Reese: IDA/Supercomputing Research Center
  909. ** 29 September 1989
  910. **
  911. ** References:
  912. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  913. ** 2) MIL-STD-188-113,"Interoperability and Performance Standards
  914. **     for Analog-to_Digital Conversion Techniques,"
  915. **     17 February 1987
  916. **
  917. ** Input: 8 bit ulaw sample
  918. ** Output: signed 16 bit linear sample
  919. */
  920.  
  921. int ulaw2linear(ulawbyte) unsigned char ulawbyte; {
  922.   static int exp_lut[8] = { 0, 132, 396, 924, 1980, 4092, 8316, 16764 };
  923.   int sign, exponent, mantissa, sample;
  924.  
  925.   ulawbyte = ~ulawbyte;
  926.   sign = (ulawbyte & 0x80);
  927.   exponent = (ulawbyte >> 4) & 0x07;
  928.   mantissa = ulawbyte & 0x0F;
  929.   sample = exp_lut[exponent] + (mantissa << (exponent + 3));
  930.   if(sign != 0) sample = -sample;
  931.  
  932.   return(sample);
  933. }
  934.  
  935. =======================================================================
  936.  
  937. PART 3 - Speech Coding and Compression
  938.  
  939. Q3.1: Speech compression techniques.
  940.  
  941. Can anyone provide a 1-2 page summary on speech compression?  Topics to
  942. cover might include common technqiues, where speech compression might be 
  943. used and perhaps something on why speech is difficult to compress.
  944.  
  945.   [The FAQ for comp.compression includes a few questions and answers
  946.    on the compression of speech.]
  947.  
  948. ------------------------------------------------------------------------
  949.  
  950. Q3.2: What are some good references/books on coding/compression?
  951.  
  952.   Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  953.     Addison Wesley series in Electrical Engineering: Digital Signal 
  954.     Processing, 1987.
  955.  
  956. ------------------------------------------------------------------------
  957.  
  958. Q3.3: What software is available?
  959.  
  960. Note: there are two types of speech compression technique referred to below. 
  961. Lossless technqiues preserve the speech through a compression-decompression
  962. phase.  Lossy techniques do not preserve the speech prefectly.  As a general
  963. rule, the more you compress speech, the more the quality degardes.
  964.  
  965.  
  966. Package:     shorten - a lossless compressor for speech signals
  967. Platform:    UNIX/DOS
  968. Description: A lossless compressor for speech signals.  It will compile and 
  969.              run on UNIX workstations and will cope with a wide variety of
  970.              formats.  Compression is typically 50% for 16bit clean speech 
  971.              sampled at 16kHz.
  972. Availability: Anonymous ftp svr-ftp.eng.cam.ac.uk: /misc/shorten-0.4.shar
  973.  
  974.  
  975. Package:     CELP 3.2 (U.S. Fed-Std-1016 compatible coder)
  976. Platform:    Sun (the makefiles & source can be modified for other platforms)
  977. Description: CELP is lossy compression technqiue.
  978.          The U.S. DoD's Federal-Standard-1016 based 4800 bps code excited
  979.              linear prediction voice coder version 3.2 (CELP 3.2) Fortran and
  980.              C simulation source codes.
  981. Contact:     Joe Campbell <jpcampb@afterlife.ncsc.mil>
  982. Availability: Anoymous ftp to furmint.nectar.cs.cmu.edu (128.2.209.111):
  983.              celp.audio.compression (C src in celp.audio.compression/celp32c).
  984.              Thanks to Vince Cate <vac+@cs.cmu.edu> for providing this site :-)
  985.              The CELP release package is also available, at no charge,
  986.              on DOS disks from:
  987.                 Bob Fenichel
  988.                 National Communications System, Washington, D.C. 20305, USA
  989.                 Ph: 1-703-692-2124    Fax: 1-703-746-4960
  990.              The following documents are vital to successful real-time
  991.              implementations and they are also available from Bob Fenichel
  992.              (they're unavailable electronically):
  993.              "Details to Assist in Implementation of Federal Standard 1016
  994.                 CELP," National Communications System, Office of Technology &
  995.                 Standards, 1992. Technical Information Bulletin 92-1.
  996.              "Telecommunications: Analog-to-Digital Conversion of Radio
  997.                 Voice by 4,800 bit/second Code Excited Linear Prediction
  998.                 (CELP)," National Communications System, Office of
  999.                 Technology & Standards, 1991. Federal Standard 1016.
  1000.  
  1001.  
  1002. Package:     32 kbps ADPCM
  1003. Platform:    SGI and Sun Sparcs
  1004. Description: 32 kbps ADPCM C-source code (G.721 compatibility is uncertain)
  1005. Contact:     Jack Jansen
  1006. Availablity: Anoymous ftp to ftp.cwi.nl: pub/adpcm.shar
  1007.  
  1008.  
  1009. Package:     GSM 06.10
  1010. Platform:    Runs faster than real time on most Sun SPARCstations
  1011. Description: GSM 06.10 is lossy compression technqiue.
  1012.          European GSM 06.10 provisional standard for full-rate speech
  1013.              transcoding, prI-ETS 300 036, which uses RPE/LTP (residual
  1014.              pulse excitation/long term prediction) coding at 13 kbit/s.
  1015. Contact:     Carsten Bormann <cabo@cs.tu-berlin.de>
  1016. Availability: An implementation can be ftp'ed from:
  1017.                 tub.cs.tu-berlin.de: /pub/tubmik/gsm-1.0.tar.Z
  1018.                                     +/pub/tubmik/gsm-1.0-patch1
  1019.                 or as a faster but not always up-to-date alternative:
  1020.                        liasun3.epfl.ch: /pub/audio/gsm-1.0pl1.tar.Z
  1021.  
  1022.  
  1023. Package:     U.S.F.S. 1016 CELP vocoder for DSP56001
  1024. Platform:    DSP56001
  1025. Description: Real-time U.S.F.S. 1016 CELP vocoder that runs on a single 
  1026.     27MHz Motorola DSP56001.  Free demo software available from PC-56
  1027.     and PC-56D.  Source and object code available for a one-time 
  1028.     license fee.
  1029. Contact: Cole Erskine
  1030.     Analogical Systems    
  1031.         2916 Ramona St.        
  1032.         Palo Alto, CA 94306, USA
  1033.         Tel:(415) 323-3232  FAX:(415) 323-4222
  1034.     Internet: cole@analogical.com
  1035.  
  1036.  
  1037.  
  1038. =======================================================================
  1039.  
  1040. PART 4 - Speech Synthesis
  1041.  
  1042. Q4.1: What is speech synthesis?
  1043.  
  1044. Speech synthesis is the task of transforming written input to spoken output.
  1045. The input can either be provided in a graphemic/orthographic or a phonemic
  1046. script, depending on its source.
  1047.  
  1048. ------------------------------------------------------------------------
  1049.  
  1050. Q4.2: How can speech synthesis be performed?
  1051.  
  1052. There are several algorithms.  The choice depends on the task they're used
  1053. for.  The easiest way is to just record the voice of a person speaking the
  1054. desired phrases.  This is useful if only a restricted volume of phrases and
  1055. sentences is used, e.g. messages in a train station, or schedule information
  1056. via phone.  The quality depends on the way recording is done.
  1057.  
  1058. More sophisticated but worse in quality are algorithms which split the 
  1059. speech into smaller pieces.  The smaller those units are, the less are they
  1060. in number, but the quality also decreases.  An often used unit is the phoneme,
  1061. the smallest linguistic unit.  Depending on the language used there are about
  1062. 35-50 phonemes in western European languages, i.e. there are 35-50 single
  1063. recordings. The problem is combining them as fluent speech requires fluent
  1064. transitions between the elements. The intellegibility is therefore lower, but
  1065. the memory required is small.
  1066.  
  1067. A solution to this dilemma is using diphones. Instead of splitting at the 
  1068. transitions, the cut is done at the center of the phonemes, leaving the 
  1069. transitions themselves intact. This gives about 400 elements (20*20) and
  1070. the quality increases.
  1071.  
  1072. The longer the units become, the more elements are there, but the quality 
  1073. increases along with the memory required. Other units which are widely used
  1074. are half-syllables, syllables, words, or combinations of them, e.g. word stems
  1075. and inflectional endings.
  1076.  
  1077. ------------------------------------------------------------------------
  1078.  
  1079. Q4.3: What are some good references/books on synthesis?
  1080.  
  1081. The following are good introductory books/articles.
  1082.  
  1083.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1084.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  1085.    1987.
  1086.  
  1087.    D. H.  Klatt, "Review of Text-To-Speech Conversion for English", Jnl. of
  1088.    the Acoustic Society of America (JASA), v82, Sept. 1987, pp 737-793.
  1089.  
  1090.    I. H. Witten.   Principles of Computer Speech.
  1091.    (London:  Academic Press, Inc., 1982).
  1092.  
  1093.    John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to Speech: 
  1094.    The MITalk System", Cambridge University Press, 1987.
  1095.  
  1096. ------------------------------------------------------------------------
  1097.  
  1098. Q4.4: What software/hardware is available?
  1099.  
  1100. There appears to be very little Public Domain or Shareware speech synthesis 
  1101. related software available for FTP.  However, the following are available.
  1102. Strictly speaking, not all the following sources are speech synthesis - all
  1103. are speech output systems.
  1104.  
  1105.  
  1106. SIMTEL-20
  1107. The following is a list of speech related software available from SIMTEL-20 
  1108. and its mirror sites for PCs.  
  1109.  
  1110. The SIMTEL internet address is WSMR-SIMTEL20.Army.Mil [192.88.110.20].
  1111. Try looking at your nearest archive site first.
  1112.  
  1113. Directory PD1:<MSDOS.VOICE>
  1114.  Filename   Type Length   Date   Description
  1115.  ==============================================
  1116.  AUTOTALK.ARC  B   23618  881216  Digitized speech for the PC
  1117.  CVOICE.ARC    B   21335  891113  Tells time via voice response on PC
  1118.  HEARTYPE.ARC  B   10112  880422  Hear what you are typing, crude voice synth.
  1119.  HELPME2.ARC   B    8031  871130  Voice cries out 'Help Me!' from PC speaker
  1120.  SAY.ARC       B   20224  860330  Computer Speech - using phonemes
  1121.  SPEECH98.ZIP  B   41003  910628  Build speech (voice) on PC using 98 phonemes
  1122.  TALK.ARC      B    8576  861109  BASIC program to demo talking on a PC speaker
  1123.  TRAN.ARC      B   39766  890715  Repeats typed text in digital voice
  1124.  VDIGIT.ZIP    B  196284  901223  Toolkit: Add digitized voice to your programs
  1125.  VGREET.ARC    B   45281  900117  Voice says good morning/afternoon/evening
  1126.  
  1127.  
  1128.  
  1129. Package:    ORATOR Text-to-Speech Synthesizer
  1130. Platform:   SUN SPARC, Decstation 5000.  Portable to other UNIX platforms.
  1131. Description: Sophisticated speech synthesis package.  Has text preprocessing 
  1132.     (for abbreviations, numbers), acronym citation rules, and human-like 
  1133.     spelling routines.  High accuracy for pronunciation of names of 
  1134.     people, places and businesses in America, text-to-speech translation 
  1135.     for common words; rules for stress and intonation marking, based on 
  1136.     natural-sounding demisyllable synthesis; various methods of user 
  1137.     control and customization at most stages of processing.  Currently, 
  1138.     ORATOR is most appropriate for applications containing a large 
  1139.     component of names in the text, and requires some amount of user-
  1140.     specified text-preprocessing to produce good quality speech for 
  1141.     general text.
  1142. Hardware: Standard audio output of SPARC, or Decstation audio hardware.
  1143.         At least 16M of memory recommended.
  1144. Cost:   Binary License: $5,000.  
  1145.         Source license for porting or commercial use: $30,000.
  1146. Availability: Contact Bellcore's Licensing Office (1-800-527-1080) 
  1147.         or email:   jzilg@cc.bellcore.com (John Zilg)
  1148.  
  1149.  
  1150. Package:      Text to phoneme program (1)
  1151. Platform:     unknown
  1152. Description:  Text to phoneme program.  Based on Naval Research Lab's
  1153.     set of text to phoneme rules.
  1154. Availability: By FTP from "shark.cse.fau.edu" (131.91.80.13) in the directory
  1155.     /pub/src/phon.tar.Z
  1156.  
  1157.  
  1158. Package:      Text to phoneme program (2)
  1159. Platform:     unknown
  1160. Description:  Text to phoneme program.
  1161. Availability: By FTP from "wuarchive.wustl.edu" in the file
  1162.     /mirrors/unix-c/utils/phoneme.c
  1163.  
  1164.  
  1165. Package:      "Speak" - a Text to Speech Program
  1166. Platform:     Sun SPARC
  1167. Description:  Text to speech program based on concatenation of pre-recorded
  1168.     speech segments.  A function library can be used to integrate
  1169.     speech output into other code.
  1170. Hardware:     SPARC audio I/O
  1171. Availability: by FTP from "wilma.cs.brown.edu" as /pub/speak.tar.Z
  1172.  
  1173.  
  1174. Package:      TheBigMouth - a Text to Speech Program
  1175. Platform:     NeXT
  1176. Description:  Text to speech program based on concatenation of pre-recorded
  1177.     speech segments.  NeXT equivalent of "Speak" for Suns.
  1178. Availability: try NeXT archive sites such as sonata.cc.purdue.edu.
  1179.  
  1180.  
  1181. Package:  TextToSpeech Kit
  1182. Platform:  NeXT Computers
  1183. Description: The TextToSpeech Kit does unrestricted conversion of English 
  1184.     text to synthesized speech in real-time.  The user has control over
  1185.     speaking rate, median pitch, stereo balance, volume, and intonation
  1186.     type.  Text of any length can be spoken, and messages can be queued 
  1187.     up, from multiple applications if desired.  Real-time controls such 
  1188.     as pause, continue, and erase are included.  Pronunciations are 
  1189.     derived primarily by dictionary look-up.  The Main Dictionary has 
  1190.     nearly 100,000 hand-edited pronunciations which can be supplemented 
  1191.     or overridden with the User and Application dictionaries.  A number 
  1192.     parser handles numbers in any form.  A letter-to-sound knowledge base 
  1193.     provides pronunciations for words not in the Main or customized 
  1194.     dictionaries.  Dictionary search order is under user control.  
  1195.     Special modes of text input are available for spelling and emphasis 
  1196.     of words or phrases.  The actual conversion of text to speech is done 
  1197.     by the TextToSpeech Server.  The Server runs as an independent task 
  1198.     in the background, and can handle up to 50 client connections.
  1199. Misc: The TextToSpeech Kit comes in two packages: the Developer Kit and the
  1200.     User Kit.  The Developer Kit enables developers to build and test
  1201.     applications which incorporate text-to-speech.  It includes the
  1202.     TextToSpeech Server, the TextToSpeech Object, the pronunciation 
  1203.     editor PrEditor, several example applications, phonetic fonts, 
  1204.     example source code, and developer documentation.  The User Kit 
  1205.     provides support for applications which incorporate text-to-speech.  
  1206.     It is a subset of the Developer Kit.
  1207. Hardware:  Uses standard NeXT Computer hardware.
  1208. Cost:  TextToSpeech User Kit:  $175 CDN ($145 US)
  1209.        TextToSpeech Developer Kit:  $350 CDN ($290 US)
  1210.        Upgrade from User to Developer Kit:  $175 CDN ($145 US)
  1211. Availability:  Trillium Sound Research
  1212.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  1213.     Tel: (403) 284-9278    Fax:  (403) 282-6778
  1214.     Order Desk:  1-800-L-ORATOR (US and Canada only)
  1215.     Email:  manzara@cpsc.UCalgary.CA
  1216.  
  1217.  
  1218. Package:     SENSYN speech synthesizer
  1219. Platform:    PC, Mac, Sun, and NeXt
  1220. Rough Cost:  $300
  1221. Description: This formant synthesizer produces speech waveform files
  1222.     based on the (Klatt) KLSYN88 synthesizer.  It is intended
  1223.         for laboratory and research use.  Note that this is NOT a
  1224.     text-to-speech synthesizer, but creates speech sounds based
  1225.     upon a large number of input variables (formant frequencies,
  1226.     bandwidths, glottal pulse characteristics, etc.) and would
  1227.     be used as part of a TTS system. Includes full source code.
  1228. Availability: Sensimetrics Corporation, 64 Sidney Street, Cambridge MA 02139.
  1229.     Fax: (617) 225-0470; Tel: (617) 225-2442.
  1230.     Email: sensimetrics@sens.com
  1231.  
  1232.  
  1233. Package:     SPCHSYN.EXE
  1234. Platform:    PC?
  1235. Availability: By anonymous ftp from evans.ee.adfa.oz.au (131.236.30.24)
  1236.     in /mirrors/tibbs/Applications/SPCHSYN.EXE
  1237.     It is a self extracting DOS archive.
  1238. Requirements: May require special TI product(s), but all source is there.
  1239.  
  1240.  
  1241. Package:      CSRE: Canadian Speech Research Environment
  1242. Platform:     PC
  1243. Cost:         Distributed on a cost recovery basis
  1244. Description:  CSRE is a software system which includes in addition to the 
  1245.     Klatt speech synthesizer, SPEECH ANALYSIS and EXPERIMENT CONTROL 
  1246.     SYSTEM. A paper about the whole package can be found in:
  1247.       Jamieson D.G. et al, "CSRE: A Speech Research Environment", Proc. 
  1248.       of the Second Intl. Conf. on Spoken Language Processing, Edmonton: 
  1249.       University of Alberta, pp. 1127-1130.
  1250. Hardware:     Can use a range of data aqcuisition/DSP
  1251. Availability: For more information about the availability of this software 
  1252.     contact Krystyna Marciniak - email march@uwovax.uwo.ca
  1253.     Tel (519) 661-3901  Fax (519) 661-3805.
  1254.     For technical information email ramji@uwovax.uwo.ca
  1255. Note: A more detailed description is given in Q1.8 on speech environments.
  1256.  
  1257.  
  1258. Package:      JSRU
  1259. Platform:     UNIX and PC
  1260. Cost:         100 pounds sterling (from academic institutions and industry)
  1261. Description:  A C version of the JSRU system, Version 2.3 is available.
  1262.     It's written in Turbo C but runs on most Unix systems with very
  1263.     little modification.  A Form of Agreement must be signed to say 
  1264.     that the software is required for research and development only.
  1265. Contact:      Dr. E.Lewis (eric.lewis@uk.ac.bristol)
  1266.  
  1267.  
  1268. Package:      Klatt-style synthesiser
  1269. Platform:     Unix
  1270. Cost:         FREE
  1271. Description:  Software posted to comp.speech in late 1992.
  1272. Availability: By anonymous ftp from the comp.speech archives.
  1273.     Two files are available from the directory "comp.speech/sources".
  1274.     The files are "klatt-cti.tar.Z" and "klatt-jpi.tar.Z".  The first
  1275.     is the original source, the second is a modified version.
  1276.  
  1277.  
  1278. Package:      MacinTalk
  1279. Platform:     Macintosh
  1280. Cost:         Free
  1281. Description:  Formant based speech synthesis.
  1282.     There is also a program called "tex-edit" which apparently
  1283.     can pronounce English sentences reasonably using Macintalk.
  1284. Availability: By anonymous ftp from many archive sites (have a look on
  1285.     archie if you can).  tex-edit is on many of the same sites. Try
  1286.     wuarchive.wustl.edu:/mirrors2/info-mac/Old/card/macintalk.hqx[.Z]
  1287.                                                        /macintalk-stack.hqx[.Z]
  1288.     wuarchive.wustl.edu:/mirrors2/info-mac/app/tex-edit-15.hqx
  1289.  
  1290.  
  1291. Package: Tinytalk
  1292. Platform: PC
  1293. Description: Shareware package is a speech 'screen reader' which is use 
  1294.     by many blind users.
  1295. Availability: By anonymous ftp from handicap.shel.isc-br.com.
  1296.     Get the files /speech/ttexe145.zip & /speech/ttdoc145.zip.
  1297.  
  1298.  
  1299. Package: Bliss
  1300. Contact: Dr. John Merus (Brown University) Mertus@browncog.bitnet
  1301.  
  1302.  
  1303. Package:      xxx
  1304. Platform:     (PC, Mac, Sun, NeXt etc)
  1305. Rough Cost:   (if appropriate)
  1306. Description:  (keep it brief)
  1307. Hardware:     (requirement list)
  1308. Availability: (ftp info, email contact or company contact)
  1309.  
  1310.  
  1311.  
  1312.  
  1313.  
  1314. Can anyone provide information on the following:
  1315.  
  1316.     Narrator (Amiga) - formant based synthesis speech synthesis chip sets?
  1317.     MultiVoice
  1318.     Monolog
  1319.  
  1320.  
  1321. Please email or post suitable information for this list.  Commercial,
  1322. public domain and research packages are all appropriate.  
  1323.  
  1324. [Perhaps someone would like to start a separate posting on this area.]
  1325.  
  1326.  
  1327. =======================================================================
  1328.  
  1329. PART 5 - Speech Recognition
  1330.  
  1331. Q5.1: What is speech recognition?
  1332.  
  1333. Automatic speech recognition is the process by which a computer maps an 
  1334. acoustic speech signal to text.
  1335.  
  1336. Automatic speech understanding is the process by which a computer maps an 
  1337. acoustic speech signal to some form of abstract meaning of the speech.
  1338.  
  1339. ------------------------------------------------------------------------
  1340.  
  1341. Q5.2: How can I build a very simple speech recogniser?
  1342.  
  1343. Doug Danforth provides a detailed account in article 253 in the comp.speech
  1344. archives - also available as file info/DIY_Speech_Recognition.
  1345.  
  1346. The first part is reproduced here.
  1347.  
  1348.   QUICKY RECOGNIZER sketch:
  1349.   
  1350.   Here is a simple recognizer that should give you 85%+ recognition
  1351.   accuracy.  The accuracy is a function of WHAT words you have in
  1352.   your vocabulary.  Long distinct words are easy.  Short similar
  1353.   words are hard.  You can get 98+% on the digits with this recognizer.
  1354.   
  1355.   Overview:
  1356.   (1) Find the begining and end of the utterance.
  1357.   (2) Filter the raw signal into frequency bands.
  1358.   (3) Cut the utterance into a fixed number of segments.
  1359.   (4) Average data for each band in each segment.
  1360.   (5) Store this pattern with its name.
  1361.   (6) Collect training set of about 3 repetitions of each pattern (word).
  1362.   (7) Recognize unknown by comparing its pattern against all patterns
  1363.       in the training set and returning the name of the pattern closest
  1364.       to the unknown.
  1365.  
  1366. Many variations upon the theme can be made to improve the performance.
  1367. Try different filtering of the raw signal and different processing methods.
  1368.  
  1369. ------------------------------------------------------------------------
  1370.  
  1371. Q5.2: What does speaker dependent/adaptive/independent mean?
  1372.  
  1373. A speaker dependent system is developed (trained) to operate for a single
  1374. speaker.  These systems are usually easier to develop, cheaper to buy and
  1375. more accurate, but are not as flexible as speaker adaptive or speaker
  1376. independent systems.
  1377.  
  1378. A speaker independent system is developed (trained) to operate for any
  1379. speaker or speakers of a particular type (e.g. male/female, American/English).
  1380. These systems are the most difficult to develop, most expensive and currently
  1381. accuracy is not as good.  They are the most flexible.
  1382.  
  1383. A speaker adaptive system is developed to adapt its operation for new 
  1384. speakers that it encounters usually based on a general model of speaker
  1385. characteristics.  It lies somewhere between speaker independent and speaker 
  1386. dependent systems.
  1387.  
  1388. Each type of system is suited to different applications and domains.
  1389.  
  1390. ------------------------------------------------------------------------
  1391.  
  1392. Q5.3: What does small/medium/large/very-large vocabulary mean?
  1393.  
  1394. The size of vocabulary of a speech recognition system affects the complexity,
  1395. processing requirements and the accuracy of the system.  Some applications
  1396. only require a few words (e.g. numbers only), others require very large 
  1397. dictionaries (e.g. dictation machines).
  1398.  
  1399. There are no established definitions but the following may be a helpful guide.
  1400.  
  1401.     small vocabulary - tens of words
  1402.     medium vocabulary - hundreds of words
  1403.     large vocabulary - thousands of words
  1404.     very-large vocabulary - tens of thousands of words.
  1405.  
  1406. ------------------------------------------------------------------------
  1407.  
  1408. Q5.4: What does continuous speech or isolated-word mean?
  1409.  
  1410. An isolated-word system operates on single words at a time - requiring a 
  1411. pause between saying each word.  This is the simplest form of recognition 
  1412. to perform, because the pronunciation of the words tends not affect each 
  1413. other.  Because the occurrences of each particular word are similar they are 
  1414. easier to recognise.
  1415.  
  1416. A continuous speech system operates on speech in which words are connected
  1417. together, i.e. not separated by pauses.  Continuous speech is more difficult
  1418. to handle because of a variety of effects.  First, it is difficult to find
  1419. the start and end points of words.  Another problem is "coarticulation".
  1420. The production of each phoneme is affected by the production of surrounding
  1421. phonemes, and similarly the the start and end of words are affected by the 
  1422. preceding and following words.  The recognition of continuous speech is also 
  1423. affected by the rate of speech (fast speech tends to be harder).
  1424.  
  1425. ------------------------------------------------------------------------
  1426.  
  1427. Q5.5: How is speech recognition done?
  1428.  
  1429. A wide variety of techniques are used to perform speech recognition. 
  1430. There are many types of speech recognition.  There are many levels of
  1431. speech recognition/processing/understanding.
  1432.  
  1433. Typically speech recognition starts with the digital sampling of speech.
  1434. The next stage would be acoustic signal processing.  Common techniques 
  1435. include a variety of spectral analyses, LPC analysis, the cepstral transform,
  1436. cochlea modelling and many, many more.
  1437.  
  1438. The next stage will typically try to recognise phonemes, groups of phonemes 
  1439. or words.  This stage can be achieved by many processes such as DTW (Dynamic
  1440. Time Warping),  HMM (hidden Markov modelling), NNs (Neural Networks), and
  1441. sometimes expert systems.  In crude terms, all these processes to recognise
  1442. the patterns of speech.  The most advanced systems are statistically 
  1443. motivated.
  1444.  
  1445. Some systems utilise knowledge of grammar to help with the recognition 
  1446. process.
  1447.  
  1448. Some systems attempt to utilise prosody (pitch, stress, rhythm etc) to
  1449. process the speech input.
  1450.  
  1451. Some systems try to "understand" speech.  That is, they try to convert the
  1452. words into a representation of what the speaker intended to mean or achieve
  1453. by what they said.
  1454.  
  1455. ------------------------------------------------------------------------
  1456.  
  1457. Q5.6: What are some good references/books on recognition?
  1458.  
  1459. Some general introduction books on speech recognition:
  1460.  
  1461.    Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang Juang
  1462.    Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing Series), c1993
  1463.    ISBN 0-13-015157-2
  1464.  
  1465.    Speech recognition by machine; W.A. Ainsworth
  1466.    London: Peregrinus for the Institution of Electrical Engineers, c1988
  1467.  
  1468.    Speech synthesis and recognition; J.N. Holmes
  1469.    Wokingham: Van Nostrand Reinhold, c1988
  1470.  
  1471.    Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1472.    Addison Wesley series in Electrical Engineering: Digital Signal Processing,
  1473.    1987.
  1474.  
  1475.    Electronic speech recognition: techniques, technology and applications
  1476.    edited by Geoff Bristow,  London: Collins, 1986
  1477.  
  1478.    Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu Lee.
  1479.    San Mateo: Morgan Kaufmann, c1990
  1480.  
  1481. More specific books/articles:
  1482.  
  1483.    Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki, M.A. Jack.
  1484.    Edinburgh: Edinburgh University Press, c1990
  1485.  
  1486.    Automatic speech recognition: the development of the SPHINX system;
  1487.    by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  1488.  
  1489.    Prosody and speech recognition; Alex Waibel
  1490.    (Pitman: London) (Morgan Kaufmann: San Mateo, Calif) 1988
  1491.  
  1492.    S. E. Levinson, L. R. Rabiner and M. M. Sondhi, "An Introduction to the 
  1493.    Application of the Theory of Probabilistic Functions of a Markov Process 
  1494.    to Automatic Speech Recognition" in Bell Syst. Tech. Jnl. v62(4),
  1495.    pp1035--1074, April 1983
  1496.  
  1497.    R. P. Lippmann, "Review of Neural Networks for Speech Recognition", in
  1498.    Neural Computation, v1(1), pp 1-38, 1989.
  1499.  
  1500. ------------------------------------------------------------------------
  1501.  
  1502. Q5.7: What speech recognition packages are available?
  1503.  
  1504. Package Name: Votan
  1505. Platform: MS-DOS, SCO UNIX
  1506. Description: Isolated word and continuous speech modes, speaker dependant
  1507.     and (limited) speaker independent.  Vocab size is 255 words or up to a 
  1508.     fixed memory limit - but it is possible to dynamically load different 
  1509.     words for effectively unlimited number of words.
  1510. Rough Cost: Approx US $1,000-$1,500
  1511. Requirements: Cost includes one Votan Voice Recognition ISA-bus board
  1512.     for 386/486-based machines.  A software development system is also 
  1513.     available for DOS and Unix.
  1514. Misc:    Up to 8 Votan boards may co-exist for 8 simultaneous voice users. 
  1515.     A telephone interface is also available. There is also a 4GL and a 
  1516.     software development system.
  1517.     Apparently there is more than  one version - more info required.
  1518. Contact: 800-877-4756, 510-426-5600
  1519.  
  1520.  
  1521. Package: HTK (HMM Toolkit) - From Entropic
  1522. Platform: Range of Unix platforms.
  1523. Description: HTK is a software toolkit for building continuous density HMM
  1524.     based speech recognisers.  It consists of a number of library 
  1525.     modules and a number of tools.  Functions include speech analysis, 
  1526.     training tools, recognition tools, results analysis, and an 
  1527.     interactive tool for speech labelling. Many standard forms of 
  1528.     continuous density HMM are possible.  Can perform isolated word or 
  1529.     connected word speech recognition.  It van model whole words, sub-
  1530.     word units.  Can perform speaker verification and other pattern 
  1531.     recognition work using HMMs.  HTK is now integerated with the
  1532.     ESPS/Waves speech research environment which is described in
  1533.     Section 1.8 of this posting.
  1534. Misc: The availability of HTK changed in early 1993 when Entropic obtained
  1535.     exclusive marketing rights to HTK from the developers at Cambridge.
  1536. Cost: On request.
  1537. Contact: Entropic Research Laboratory, Washington Research Laboratory,
  1538.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  1539.     (202) 547-1420.  email - info@wrl.epi.com
  1540.  
  1541.  
  1542. Package Name: DragonDictate
  1543. Platform:     PC
  1544. Description:  Speaker dependent/adaptive system requiring words to be
  1545.     separated by short pauses.  Vocabulary of 25,000 words including
  1546.     a "custom" word set.
  1547. Rough Cost:   ?
  1548. Requirements: 386/486 with plenty of memory
  1549. Contact:      Dragon Systems Inc.
  1550.     90 Bridge Street, Newton MA 02158
  1551.         Tel: 1-617-965-5200,  Fax: 1-617-527-0372
  1552.  
  1553.  
  1554. Product name: IN3 Voice Command For Windows
  1555. Platform: PC with Windows 3.1 
  1556. Description: Speech Recognition system simplifies the Windows interface
  1557.     by letting users call applications to the foreground with voice 
  1558.     commands.  Once the application is called, the user may enter 
  1559.     commands and data with voice commands.  IN3 (IN CUBE) is easily 
  1560.     customized for any Windows application.  IN3 is hardware-independent, 
  1561.     letting users with any Windows-compatible audio add speech 
  1562.     recognition to the desktop.  IN3 is based on continuous word-
  1563.     spotting technology.
  1564. Price: $179 U.S.
  1565. Requirments: PC with 80386 processor or higher, Microsoft Windows 3.1.
  1566. Misc: Fully functional demo is available on Compuserve in Multimedia 
  1567.     Forum #6 (filename in3dem.zip).
  1568. Contact: Brantley Kelly
  1569.     Email: cbk@gacc.atl.ga.us   CIS: 75120,431
  1570.     FAX: 1-404-925-7924         Phone: 1-404-925-7950
  1571.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth, GA 30136, USA
  1572.  
  1573.  
  1574. Package Name: SayIt
  1575. Platform:     Sun SPARCstation
  1576. Description:  Voice recognition and macro building package for Suns
  1577.     in the Openwindows 3.0 environment.  Speaker dependent discrete speech 
  1578.     recognition. Vocabularies can be associated to applications and the
  1579.     active vocabulary follows the application that has input focus.
  1580.     Macros can include mouse commands, keystrokes, Unix commands, 
  1581.     sound, Openwindow actions and more.  
  1582.     An evaluation copy is available by email.
  1583. Hardware:     Microphone required (SunMicrophone is fine).
  1584. Cost:         $US295
  1585. Contact:      Phone: 1-800-245-UNIX or 1-415-572-0200
  1586.     Fax: 1-415-572-1300
  1587.     Email: info@qualix.com
  1588.  
  1589.  
  1590. Package Name: recnet
  1591. Platform:     UNIX
  1592. Description:  Speech recognition for the speaker independent TIMIT and 
  1593.     Resource Management tasks.  It uses recurrent networks to estimate 
  1594.     phone probabilities and Markov models to find the most probable 
  1595.     sequence of phones or words.  The system is a snapshot of evolving 
  1596.     research code.  There is no documentation other than published 
  1597.     research papers.  The components are:
  1598.     1. A preprocessor which implements many standard and many non-
  1599.     standard front end processing techniques.
  1600.     2. A recurrent net recogniser and parameter files
  1601.     3. Two Markov model based recognisers, one for phone recognition 
  1602.     and one for word recognition
  1603.     4. A dynamic programming scoring package
  1604.     The complete system performs competatively.
  1605. Cost:         Free
  1606. Requirements: TIMIT and Resource Management databases
  1607. Contact:      ajr@eng.cam.ac.uk (Tony Robinson)
  1608. Availability: by FTP from "svr-ftp.eng.cam.ac.uk" as /misc/recnet-1.0.tar
  1609.  
  1610.  
  1611. Package Name: Voice Command Line Interface
  1612. Platform:     Amiga
  1613. Description:  VCLI will execute CLI commands, ARexx commands, or ARexx 
  1614.     scripts by voice command through your audio digitizer. VCLI allows 
  1615.     you to launch multiple applications or control any program with an 
  1616.     ARexx capability entirely by spoken voice command. VCLI is fully 
  1617.     multitasking and will run in the background, continuously listening
  1618.     for your voice commands even while other programs are running.
  1619.     Documentation is provided in AmigaGuide format.
  1620.     VCLI 6.0 runs under either Amiga DOS 2.0 or 3.0.
  1621. Cost:         Free?
  1622. Requirements: Supports the DSS8, PerfectSound 3, Sound Master, Sound Magic, 
  1623.     and Generic audio digitizers.
  1624. Availability: by ftp from wuarchive.wustl.edu in the file
  1625.     systems/amiga/incoming/audio/VCLI60.lha and from
  1626.     amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  1627. Contact:      Author's email is RHorne@cup.portal.com
  1628.  
  1629.  
  1630. Package Name: xxx
  1631. Platform:     PC, Mac, UNIX, Amiga ....
  1632. Description:  (e.g. isolated word, speaker independent...)
  1633. Rough Cost:   (if applicable)
  1634. Requirements: (hardware/software needs - if applicable)
  1635. Misc:
  1636. Contact:      (email, ftp or address)
  1637.  
  1638.  
  1639. Can anyone provide info on
  1640.  
  1641.     Voice Navigator (from Articulate Systems)
  1642.     IN3 Voice Command
  1643.  
  1644.  
  1645. Can you provide information on any other software/hardware/packages?
  1646. Commercial, public domain and research packages are all appropriate.
  1647.  
  1648. [There should be enough info for someone to start a separate posting.]
  1649.  
  1650.  
  1651. =======================================================================
  1652.  
  1653. PART 6 - Natural Language Processing
  1654.  
  1655. There is now a newsgroup specifically for Natural Language Processing.
  1656. It is called comp.ai.nat-lang.  
  1657.  
  1658. There is also a lot of useful information on Natural Language Processing 
  1659. in the FAQ for comp.ai.  That FAQ lists available software and useful 
  1660. references.  It includes a substantial list of software, documentation 
  1661. and other info available by ftp.
  1662.  
  1663. ------------------------------------------------------------------------
  1664.  
  1665. Q6.1: What are some good references/books on NLP?
  1666.  
  1667.  
  1668. Take a look at the FAQ for the "comp.ai" newsgroup as it also includes some 
  1669. useful references.
  1670.  
  1671.  
  1672.   James Allen: Natural Language Understanding. (Benjamin/Cummings Series in
  1673.   Computer Science) Menlo Park: Benjamin/Cummings Publishing Company, 1987.
  1674.  
  1675.     This book consists of four parts: syntactic processing, semantic
  1676.     interpretation, context and world knowledge, and response generation.
  1677.  
  1678.   G. Gazdar and C. Mellish, Natural Language Processing in {Prolog/Lisp/Pop11},
  1679.   Addison Wesley, 1989
  1680.  
  1681.     Emphasis on parsing, especially unification-based parsing, lots of 
  1682.     details on the lexicon, feature propagation, etc. Fair coverage of 
  1683.     semantic interpretation, inference in natural language processing, 
  1684.     and pragmatics; much less extensive than in Allen's book, but more
  1685.     formal.  There are three versions, one for each programming language 
  1686.     listed above, with complete code.
  1687.  
  1688.   Shapiro, Stuart C.: Encyclopedia of Artificial Intelligence Vol.1 and 2.
  1689.   New York: John Wiley & Sons, 1990.
  1690.  
  1691.     There are articles on the different areas of natural language
  1692.     processing which also give additional references.
  1693.  
  1694.   Paris, Ce'cile L.; Swartout, William R.; Mann, William C.: Natural Language
  1695.   Generation in Artificial Intelligence and Computational Linguistics. Boston:
  1696.   Kluwer Academic Publishers, 1991.
  1697.  
  1698.     The book describes the most current research developments in natural 
  1699.     language generation and all aspects of the generation process are
  1700.     discussed. The book is comprised of three sections: one on text
  1701.     planning, one on lexical choice, and one on grammar.
  1702.  
  1703.    Readings in Natural Language Processing, ed by B. Grosz, K. Sparck Jones
  1704.    and B. Webber, Morgan Kaufmann, 1986
  1705.  
  1706.     A collection of classic papers on Natural Language Processing.  
  1707.         Fairly complete at the time the book came out (1986) but now 
  1708.     seriously out of date. Still useful for ATN's, etc.
  1709.  
  1710.    Klaus K. Obermeier, Natural Language Processing Technologies
  1711.    in Artificial Intelligence: The Science and Industry Perspective,
  1712.    Ellis Horwood Ltd, John Wiley & Sons, Chichester, England, 1989.
  1713.  
  1714.  
  1715. The major journals of the field are "Computational Linguistics" and 
  1716. "Cognitive Science" for the artificial intelligence aspects, "Cognition" 
  1717. for the psychological aspects, "Language", "Linguistics and Philosophy" and 
  1718. "Linguistic Inquiry" for the linguistic aspects.  "Artificial Intelligence" 
  1719. occasionally has papers on natural language processing.
  1720.  
  1721.  
  1722. The major conferences are ACL (held every year) and COLING (held every two
  1723. years).  Most AI conferences have a NLP track; AAAI, ECAI, IJCAI and the
  1724. Cognitive Science Society conferences usually are the most interesting for 
  1725. NLP.  CUNY is an important psycholinguistic conference. There are lots of 
  1726. linguistic conferences: the most important seem to be NELS, the conference 
  1727. of the Chicago Linguistic Society (CLS), WCCFL, LSA, the Amsterdam Colloquium,
  1728. and SALT. 
  1729.  
  1730.  
  1731. ------------------------------------------------------------------------
  1732.  
  1733. Q6.2: What NLP software is available?
  1734.  
  1735. The FAQ for the "comp.ai" newsgroup lists a variety of language processing 
  1736. software that is available.  That FAQ is posted monthly.
  1737.  
  1738. Natural Language Software Registry
  1739.  
  1740. The Natural Language Software Registry is available from the German Research 
  1741. Institute for Artificial Intelligence (DFKI) in Saarbrucken.
  1742.  
  1743. The current version details 
  1744.  + speech signal processors, e.g. Computerized Speech Lab (Kay Electronics)
  1745.  + morphological analyzers, e.g. PC-KIMMO (Summer Institute for Linguistics)
  1746.  + parsers, e.g. Alveytools (University of Edinburgh)
  1747.  + knowledge representation systems, e.g. Rhet (University of Rochester)
  1748.  + multicomponent systems, such as ELU (ISSCO), PENMAN (ISI), Pundit (UNISYS),
  1749.         SNePS (SUNY Buffalo),
  1750.  + applications programs (misc.)
  1751.  
  1752. This document is available on-line via anonymous ftp to 
  1753.     Site: ftp.dfki.uni-sb.de 
  1754.     Directory: /registry 
  1755. or by email to registry@dfki.uni-sb.de.
  1756.  
  1757. If you have developed a piece of software for natural language processing 
  1758. that other researchers might find useful, you can include it by returning 
  1759. a description form, available from the same source.
  1760.  
  1761. Contacts: Christoph Jung, Markus Vonerden 
  1762.         Natural Language Software Registry
  1763.         Deutsches Forschungsinstitut fuer Kuenstliche Intelligenz (DFKI)
  1764.         Stuhlsatzenhausweg 3
  1765.         D-W-6600 Saarbruecken
  1766.         Germany
  1767.  
  1768.         phone: +49 (681) 303-5282
  1769.         e-mail: registry@dfki.uni-sb.de
  1770.  
  1771.  
  1772.  
  1773.  
  1774. Andrew Hunt
  1775. Speech Technology Research Group        Ph:  61-2-692 4509
  1776. Dept. of Electrical Engineering            Fax: 61-2-692 3847
  1777. University of Sydney, NSW, 2006, Australia    email: andrewh@ee.su.oz.au
  1778.